<div class="sub_page">
    <h2 class="blue">线性回归[回归]</h2>
    <p>线性模型根据因变量与一个或多个自变量间的线性关系来预测连续型因变量。线性模型相对简单，用于评分的数学公式也易于解释。这些模型比较好理解，与同一数据集上的其他模型类型（如神经网络或决策树）相比能够非常快速构建。比如，根据理论和经验分析，影响粮食生产的主要因素有：化肥施用量，粮食播种面积，成灾面积及第一产业劳动力。想要研究这几个因素究竟是怎样影响粮食产量的。</p>
    <h2 class="blue">数据</h2>
    <p>使用的数据集如下。时间跨度为1990年到2013年，全国数据。</p>
    <img src="help/imgs/cases/5.png" />
    <h2 class="blue">操作</h2>
    <p>菜单中选择</p>
    <p>分析预测 > 回归 > 线性回归</p>
    <img src="help/imgs/cases/6.png" />
    <p>设需要拟合的粮食生产函数为</p>

    <p>其中，为粮食产量自然对数，为第一产业就业人员数自然对数，为农业机械总动力自然对数，为化肥施用量自然对数，为粮食播种面积自然对数，为成灾面积自然对数。</p>
    <p>先对所有指标取自然对数</p>
    <img src="help/imgs/cases/7.png" />
    <p>因此，选择粮食产量自然对数为因变量，其它四个指标为自变量。并且，由于模型中包含常数项，因此常数项选择默认即为包含常数项。另外，由于模型中包含五个自变量，因此可能存在多重共线性问题。因此，选择共线性诊断。另外，回归系数参数估计选择%置信区间。</p>
    <img src="help/imgs/cases/8.png" />
    <h2 class="blue">输出结果</h2>
    <p>首先，模型，统计学显著，并且，调整，表明粮食产量与其他自变量线性关系显著。</p>
    <img src="help/imgs/cases/9.png" />
    <p>其次，容差及VIF帮助诊断共线性。</p>
    <img src="help/imgs/cases/10.png" />
    <p>某变量的容差表示该变量的方差中不能被其他自变量解释的部分所占百分比。因此，容差值越小就表明该变量的方差可以被其他自变量解释的部分越多。可以看到，，，都具有较小的容差。</p>
    <p>某变量VIF值越大，则自变量共线性越强。结果显示，,, VIF值均大于10，一般认为，可以表明该变量与其它变量存在较强的共线性。</p>
    <p>另外，计算变量之间的相关系数。</p>
    <p>菜单中选择</p>
    <p>分析预测 > 相关性分析 > 双变量</p>
    <img src="help/imgs/cases/11.png" />
    <img src="help/imgs/cases/12.png" />
    <p>也不难发现，与，，，与 具有高度的线性相关性。</p>
    <img src="help/imgs/cases/13.png" />
    <p>综上，考虑先从模型中剔除，重新拟合模型。</p>
    <p>删除后重新拟合模型</p>
    <img src="help/imgs/cases/14.png" />
    <p>，，表明因变量与自变量之间在统计学上总体线性关系显著</p>
    <img src="help/imgs/cases/15.png" />
    <p>由变量的检验不难发现，对于变量， ， 对应， 在统计学上不显著。综合考虑相关系数的计算结果，是由于与剩余自变量间具有高度相关性。因此，将从模型中剔除后再次拟合线性模型。</p>
    <p>剔除及后，，，表明粮食生产与剩余变量总体线性关系显著。</p>
    <img src="help/imgs/cases/16.png" />
    <p>此外，，，也均通过了检验。</p>
    <img src="help/imgs/cases/17.png" />
    <p>模型调整，表明模型拟合程度比较理想。通过模型图也可以看出，拟合值和实际值之间误差较小。</p>
    <img src="help/imgs/cases/18.png" />
    <p>另外，由于模型使用的是时间数据建模，因此残差可能存在自相关问题。查看残差图，认为残差序列可能不存在显著的自相关问题。当然，可以结合检验或其他方法进行检验。在此不展开。</p>
    <img src="help/imgs/cases/19.png" />
    <p>综上，最终模型表达式为</p>
    <img src="help/imgs/cases/case-1.png" />
    <img src="help/imgs/cases/20.png" />
    <p>结合标准化回归系数，不难看出， 化肥施用量（）与粮食播种面积（）对粮食产量影响为正，即在其他条件不变的情况下，化肥用量值在一定范围内越大，粮食播种面积越大，粮食产量越高。并且，化肥施用量的影响相对更大些。 成灾面积（）与粮食产量成负相关。在其他条件不变的情况下，成灾面积越大，粮食产量越低。</p>
    <div class="other">
        注
        <p>1.遇到变量较多的情况是，可以考虑使用逐步回归进行分析。Dfinder中也提供了逐步回归，向前向后三种方法分析多个自变量的回归问题，并且以作为筛选标准。有兴趣的可以尝试。但是，需要说明的是，逐步回归并不一定能够解决变量之间的多重共线性问题。</p>
        <p>本例旨在结合数据介绍Dfinder中已开发的统计分析功能，如何操作及简单使用，并不作为实际的统计分析研究。如本例由于使用时间序列数据，更严谨的可能要先进行序列的协整分析，或需要针对残差序列的序列相关性进行进一步检验等更专业深入的问题，均不进行深入探讨。</p>
    </div>


</div>